http://www.arocmag.com/article/02-2019-04-014.html 


面向 不 平衡 数据 分 类 的 KFDA-Boosting 算法 
王 来 !， 奖 重 俊 "， 杨 云 鹏 '， 喜 光辉 *” 


(1. 上 海 理工 大 学 管理 学 院 ， 上 海 200093; 2. 上 海 财经 大 学 a. 信息 管理 与 工程 学 院 ; b. 实验 中 心 ， 上 海 200433) 


摘 要 : 数据 分 布 的 不 平衡 性 和 数据 特征 的 非 线 性 增加 了 分 类 的 困难 ， 特 别 是 难以 识别 不 平衡 数据 中 的 少数 类 ， 从 而 
影响 整体 的 分 类 效果 。 针 对 该 问题 ， 结 合 KFDA (kernel fisher discriminant analysis) 能 有 效 提取 样本 非 线 性 特征 的 特 
性 和 集成 学 习 中 Boosting 算法 的 思想 , 提出 了 KFDA-Boosting 算法 。 为 了 验证 该 算法 对 不 平衡 数据 分 类 的 有 效 性 和 优 
越 性 ， 以 G-mean 值 、 少 数 类 的 查 准 率 与 查 全 率 作 为 分 类 效果 的 评价 指标 ， 选 取 了 UCI 中 10 个 数据 集 测试 KFDA- 
Boosting 算法 性 能 ， 并 与 支持 向 量 机 等 六 种 分 类 算法 进行 对 比 实验 。 结 果 表 明 ， 对 于 不 平衡 数据 分 类 ， 尤 其 是 对 不 平 
衡 度 较 大 或 呈 非 线性 特征 的 数据 ， 相 比 于 其 他 分 类 算法 ，KFDA-Boosting 算法 能 有 效 地 识别 少数 类 ， 并 且 在 整体 上 具 
有 显著 的 分 类 效果 和 较 好 的 稳定 性 。 
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Abstract: The imbalance of data distribution and the nonlinearity of data characteristics increase the difficulty of classification, 
especially the recognition of the minority class samples in the imbalanced data, thus affecting the overall classification effect. 
For the above problem, an algorithm called KFDA-Boosting was proposed in this paper, which combined the characteristic of 
KFDA , namely Kernel Fisher Discriminant Analysis, effectively extracting the samples’ nonlinear features and the idea of 
Boosting algorithm in the ensemble learning. In order to verify the effectiveness and superiority of the algorithm in the 
classification of imbalanced data, the paper used the G-mean value, the precision and recall of the minority class samples to 
evaluate the performance of classifier, and selected 10 datasets of UCI to test the KFDA-Boosting algorithm, which compared 
with other six algorithms, such as Support vector machine. Compared with other algorithms, the results show that the algorithm 
can effectively identify the minority class, and has a significant effect on the classification of imbalanced data and better stability 
on the whole, especially for the data with larger unbalance degree or nonlinear characteristics. 
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Se 利用 样本 特征 ， 精 准 地 识别 少数 类 样本 ， 从 而 改善 整体 的 分 类 

引 I 守 效果 ， 对 解决 不 平衡 数据 的 分 类 问题 具有 重大 的 价值 与 意义 。 

不 平衡 数据 分 类 ， 在 许多 领域 中 有 着 重要 的 应 用 ， 如 疾病 近年 来 ， 针 对 不 平衡 数据 分 类 问题 的 研究 ， 研 究 人 员 主 要 
诊断 、 文 本 识别 、 入 侵 检测 等 。 所 谓 不 平衡 数据 ， 即 数据 集中 是 从 数据 层 和 算法 层 两 个 层面 着 手 。 

某 一 类 或 某 些 类 样本 数 远 多 于 其 他 类 别 。 对 于 不 平衡 数据 分 类 ， 在 数据 层面 上 ,主要 是 通过 重 采样 实现 各 类 样本 数 的 平衡 ， 

人 们 更 多 地 关注 少数 类 样本 ,并 且 少 数 类 的 错 分 代价 相对 较 大 。 其 中 包括 欠 采 样 和 过 采样 。 对 于 重 采样 方法 的 研究 ， 主 要 围绕 

同时 ， 随 着 数据 量 的 增加 ， 数 据 间 越 来 越 呈现 非 线性 的 特征 Laurikkala 提出 的 邻 域 清除 算法 中 和 Chawla 等 人 提出 的 


至 为 强 非 线性 ， 这 也 增加 了 识别 少数 类 的 困难 。 因 此 ， 有 效 ”SMOTE 算法 争 展 开 。 例 如， 郑 文昌 等 人 BJ 提出 了 面向 不 平衡 数 
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研究生， 主要 研究 方向 为 智能 优化 算法 、 大 数据 控 
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据 集 的 SMOTE-SVM 交通 事件 检测 算法 ， 其 中 采用 
算法 对 事件 数据 进行 过 采样 ， 以 降低 不 平衡 性 。 
衡 、 杨 煞 等 人 线 3 先 通过 改进 的 SMOTE 算法 平衡 
数 ， 再 基于 分 类 算法 处 理 不 平衡 数据 。 但 过 采样 可 能 会 引入 其 
他 噪声 ， 而 欠 采 样 可 能 丢失 某 些 有 用 的 重要 信息 。 在 算法 层面 
上 , 主要 包括 代价 敏感 学 习 、 集 成 学 习 等 方法 。 代价 敏感 学 习 ， 
为 不 同类 型 的 错误 分 配 不 同 的 代价 ， 以 达到 分 类 时 产生 的 错误 
总 代价 最 低 的 目标 号 ?7。 例 如 ， 邹 鹏 等 人 图 针对 客户 价值 细 分 问 
题 中 的 不 平衡 数据 ， 设 计 了 代价 敏感 决策 树 算法 ， 以 实现 对 客 
户 价值 的 有 效 识 别 。 师 彦 文 等 四 针对 不 平衡 数据 集 ， 提 出 了 将 
代价 敏感 和 随机 森林 相 结合 的 分 类 算法 。 而 集成 学 习 ， 主 要 包 
括 Boosting 算法 HU 和 Bagging 算法 QU。 对 于 运用 集成 学 习 解 决 
不 平衡 数据 分 类 的 研究 , 较 多 的 是 在 Freund 和 Schapire 两 人 提 
出 的 Boosting 算法 的 基础 上 进行 改进 02.3, 坝 。 例 如 ， 
人 035 将 LDA 加 入 Boosting 算法 中 建立 弱 分 类 器 ， 应 用 到 客户 
流失 预测 中 。 虽然 LDA-Boosting 提高 了 分 类 效率 , 但 对 包含 非 
线性 特征 的 不 平衡 数据 进行 分 类 时 ， 并 不 能 达到 理想 的 效果 ; 
李 论 靖 等 人 09 以 KNN 作为 弱 分 类 器 ， 利 用 BPSO 对 数据 进行 
地 征 提取 后 采用 Adaboost-KNN 算法 进行 分 类 ， 但 最 优 特征 子 
集 的 选取 容易 陷入 局 部 最 优 解 ， 进 而 影响 最 终 的 分 类 效果 。 

以 上 两 个 层面 ， 并 未 充分 考虑 到 样本 特征 的 有 效 利用 ， 尤 
其 是 非 线 性 特征 。 针 对 该 问题 ， 考 虑 到 Boosting 作为 一 种 有 效 
的 分 类 学 习 方 法 ， 在 处 理 那 些 难以 学 习 的 样本 时 会 赋 以 更 高 的 
权重 ， 使 得 分 类 器 在 下 次 训练 中 聚焦 到 那些 样本 上 ， 从 而 能 
在 一 定 程度 上 提升 对 不 平衡 数据 的 分 类 效果 。 而 核 Fisher 判别 
分 析 能 够 十 分 有 效 地 对 非 线性 特征 进行 提取 ， 本 文 将 这 两 种 算 
法 结合 起 来 ， 提 出 了 KFDA-Boosting 算法 。 

KFDA-Boosting 算法 利用 核 Fisher 判别 分 析 有 效 地 提取 非 
线性 判别 特征 ， 并 借助 集成 学 习 中 Boosting 算法 的 思想 改善 其 
分 类 性 能 。 最 后 ， 对 UCI 中 选取 的 10 个 数据 集 进行 了 仿真 实 
验 ， 以 测试 KFDA-Boosting 算法 对 不 平衡 数据 分 类 的 可 行 性 和 
有 效 性 ， 并 和 其 他 六 种 分 类 算法 的 分 类 效果 对 比分 析 ， 期 望 体 
现 该 算法 对 少数 类 的 有 效 识 别 ， 且 整体 的 分 类 效果 有 一 定 的 提 
升 。 
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1 KFDA-Boosting 算法 


1.1 Boosting 算法 思想 
本 文 主要 以 二 分 类 问题 为 例 , 阐述 Boosting 算法 思想 [719 
如 下 : 

给 定 弱 分 类 器 和 训练 集 

S={G00 DC Ks yn) 

其 中 :xG=1,2,…,m) 是 一 个 n 维 列 向 量 ，y 表示 第 ;个 样本 的 
标签 ，y, eY={+1,-l}。 
首先 ， 对 训练 集中 各 样本 赋予 一 个 初始 权重 。 接 着 ， 在 每 
轮 途 代 过 程 中 , 会 产生 一 个 弱 假 设 寻 :和 一 {L-1， 并 相应 地 更 
新 样本 权重 ， 即 增 大 那些 被 错误 分 类 的 样本 的 权重 ， 减 小 分 类 
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错 分 的 样本 上 。 经 过 了 轮 和 迭代 后 ,根据 其 分 类 精度 得 到 的 权重 ， 
将 每 轮 欠 代 过 程 中 产生 的 弱 假 设 进行 加 权 ， 从 而 得 到 最 终 的 分 


类 器 。 
1.2 改进 的 核 Fisher 判别 分 析 
核 Fisher 判别 分 析 的 基本 思想 是 将 


射 到 另 一 个 特征 空间 然后 在 特征 空间 
析 ， 以 达到 对 输入 空间 进行 分 类 的 目 


输入 空间 R 


考虑 到 Boosting 算法 的 特点 ， 本 文 对 


原始 的 核 Fis 


中 利用 Fisher #; 
的 09,20]。 


正确 的 样本 的 权重 ， 使 得 弱 分 类 器 在 下 次 迭代 中 集中 到 那些 被 
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分 析 加 以 改进 ， 即 对 每 个 样本 赋予 相应 的 权重 。 有 具体 思路 与 过 


程 如 下 : 


在 特征 空间 F 中 ， 每 个 样本 对 应 的 权 玫 


第 i 个 样本 , 在 第 7 轮 学 习 中 的 权重 。 


类 样本 的 均值 mf 和 样本 类 内 离散 度 矩 阵 5#, 分 别 为 


$ _) 
Si 


DG 一 MD) 一 TO 
» =k 


2D, 
yi=k 


由 上 述 my 和 sh， 样本 类 间 离 散 度 和 
散 度 矩 阵 5 可 表示 为 


,天 三 土 1 


$$ 一 乡 $ a $ \T 
Sip = Mm DG m1) 


$ 
Siw > DNS 韦 
站 = 


其 


即 


Sy = > DD.,(¢% -ms )( 


k=1,-1y;=1 


> D, ,SY 


GO me) 


为 D，， 其 看 做 是 
在 变换 后 的 空间 五 中 ， 各 


(1) 


2) 


E 阵 $% 和 样本 类 内 离 


(5) 


根据 Fisher 判别 准则 ， 此 时 Fisher 准则 函数 的 表达 式 为 


此 得 到 了 特征 空间 中 的 Fisher 判别 


(6) 


函数 ,从 而 实现 Fisher 


判别 。 但 如 果 特 征 空间 亚 维 数 非常 高 ， 


> 


K(x,y) = exp(-—— 
(on 


r 


) 


其 中 :x,y 为 对 应 的 样本 值 ，o 为 常数 ， 
度 。 


由 再 生 核 理论 可 知 ， 高 维 


w = be) = cg 


其 中 :，Q=(Q,Q,…,0,) e R" 为 各 个 元 素 G(x) 的 线 怕 


加 


根据 mf.(k= 一 1 D 的 定义 和 式 (8), 将 特征 空间 五 


其 至 为 无 限 维 时 ， 无 法 
直接 通过 上 式 求解 最 佳 判别 矢量 。 针 对 该 问题 ， 引 入 核 函 数 。 
采用 RBF 核 函 数 ( 即 Gauss 径 向 基 核 函数 ) 作为 映射 


函数 


(7) 


其 决定 非 线 性 化 的 程 


空间 中 的 任 一 解 都 可 以 被 表示 为 
间 中 训练 样本 线性 组 合 的 形式 ， 即 有 


(8) 


FP 训练 样 
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本 的 均值 mf 投影 到 w 上， 可 得 


w, mf, = 


2 yo K(X )D,,=a M,. (9) 


bi j=1 y=k 


其 中 : 
M,: = 5 Dr ) ),2.k(%,5) 厂 ) ln Xi) Wao 
5 Li \ y=k 
则 可 将 式 (6) 中 右边 分 式 的 分 子 、 分 母 分 别 转 换 为 如 下 形式 : 
TS =w," (ms $1 ms (mi 一 II9 w, 
= (MM NM MY a 0D 
=a Mo 
其 中 : 
M=(M,,—M, DC -NM (12) 
Ww Shyw, =w > DD (G00 ms ($0) -ms ) Ww: (13) 
= Hoa, 
其 中 : 
H= 2 > De -ME -MO (14) 
Kk, =(K(0, DC 区) KRC x)) (15) 
联 立 式 (6) (11) (13) 可 得 ,特征 空间 中 的 Fisher 判别 式 
a Mo 16 
1(0 = 7 (16) 
根据 广义 的 Ralyeigh 灼 性 质 得 
a=H"(M,,—M,) (17) 
所 以 ， 特 征 空 间 g(x) 在 a 上 的 投影 为 
oO- wk (18) 


1.3 KFDA-Boosting 算法 流程 

将 改进 的 核 Fisher 判别 分 析 加 入 到 Boosting 算法 框架 之 
中 ， 得 到 KFDA-Boosting 算法 流程 如 下 。 

对 于 训练 旨 


mt 


S ={(0,7), 56,» ) ,Ns )}» 
其 中 ，y, 表 示 第 ;个 样本 的 标签 ， ea 让 ; 弱 学 习 算 法 
为 改进 的 KFDA， 和 友 代 次 数 为 了， 对 于 第 ;个 样本 在 第 ! 轮 友 代 
时 的 分 布 为 记 为 D,， 
对 于 每 轮 迭 代 过 程 中 的 弱 假 设 有 :XX >{1,-1} , 其 分 类 效果 
背 误 率 6 衡量 : 


& = DD AIGN) #3]=P,, (h(%) ty;) (19) 
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ye 了 ={+1, 一 上 ， 连 代 次 数 7; 


1 
—,if y,=1 
1 初始 化 样本 权重 : p= ， 其 中 , ， N_ 分 别 为 正 
页 else 


类 、 负 类 样本 的 总 数 ; 

2 forflto 了 

训练 针对 样本 分 布 为 Di, 的 加 权 KFDA 
求解 得 到 及 ,MM,, ,k=1,-1; 

5 求解 得 到 最 优 w ; 


上 人 


+l, if wh(x)>0 


—], else 


6 ”得 到 弱 分 类 器 万 (x ) -| 


aXiv 合 上 外。 


， 闵 值 9 由 各 类 样本 


均值 在 w 上 投影 的 加 权 平 均值 决定 ， 权 重 分 别 为 对 应 类 的 样本 总 数 ; 


7 计算 分 类 错误 率 6 = > > DDI(h(%) zy) 


k=1,~1 y=k 
8 if p>0.5 
9 continue 


10 elseif 7=t-l1 


11 break 
12 endif 
1 1— 
13 令 @=—log 2 
包 &, 
14 ”更 新 样本 权重 : for i=1 tom 


15 D 


[a2 


使 得 2D = 


16 endfori 
17 end fort 


i 
输出 : 最 终 假设 “五 (x) = sign(》 ,0h (x)) 
t=1 


2 ”分 类 评价 指标 


exp(Q,(7(h (xX,) = 光 ))) ,其 中 Z 为 归 一 化 算 子 ， 


在 不 平衡 数据 中 , 少数 类 对 应 为 正 类 , 多 数 类 对 应 为 负 类 ， 


表 1 给 出 了 二 分 类 问题 的 混淆 矩阵 。 


表 1 二 分 类 问题 的 混淆 矩阵 
正 类 (预测 ) ” 负 类 《预测 ) 
正 类 (实际 ) TP FN 
负 类 实际) FP TN 
在 传统 的 分 类 算法 中 ， 通 常 采用 分 类 准确 率 作 为 分 类 性 能 
评价 指标 ， 即 
daccuracy = 人 (20) 
TP+TN+FP+IN 
通常 情况 下 ， 不 平衡 数据 中 的 正 类 样本 数 所 占 比 例 小 ， 
而 TP 不 会 太 大 ， 甚 至 出 现 为 0 的 情况 , 而 TN 值 很 大 ,使 得 分 


类 的 最 终 准 确 率 较 大 ， 但 却 因此 忽略 了 分 类 器 对 正 类 的 识别 J 
确 率 。 所 以 ， 准 确 率 并 不 能 真正 意义 上 反映 分 类 器 的 性 能 
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鉴于 分 类 正确 率 存 在 以 上 缺陷 ， 本 文采 用 G-mean 值 作为 表 2 实验 数据 集 
和 分 类 性 能 评价 指标 ， 
[21 。 一半 集 名 ”样本 数 “ 特 征 数 。 类 别 数 。 正 类 数 / 负 类 数 。 
GE Sonar 208 60 2 97/111 1.14 
其 中 : TpR=2_ 人 _, mr-_ .， Ionosphere C351 34 2 126/225 1.79 
TP+FN TN+FP Seeds 210 7 3 70/140 2.00 
G-mean 值 作 为 不 平衡 数据 分 类 常用 的 评价 指标 ， 分 别 用 Wine 178 13 3 48/130 2.71 
TPR 、TNR 来 衡量 正 类 和 负 类 的 分 类 性 能 ， 其 值 越 大 表明 分 类 Ecoli 336 7 8 52/284 5.46 
效果 越 好 。 二 者 其 中 车 有 一 个 值 的 结果 不 佳 , 就 会 导致 Gmean Feiiy 10 9 2 1288 733 
值 不 理想 Balance 625 4 3 49/576 11.76 
Gl 214 9 7 13/201 15.46 
同时 ， 为 了 进一步 衡量 对 正 类 的 分 类 效果 ， 在 此 引入 正 类 
Wy a aa Page- 5473 10 5 88/5385 61.19 
的 查 准 率 (precision) 与 查 全 率 (recall)， 其 定义 分 别 如 下 : 说 宙 条 DOR 1 
i TP 
precision 二 一 一 (22) 
7P+FP 经 过 上 述 处 理 后 ， 各 样本 的 特征 属性 值 转换 为 [0,1] 的 数 ， 
TP 同时 这 也 消除 了 量 纲 的 影响 ， 且 便于 后 续 的 迭代 计算 。 
recall = (23) 
TP+FN 3.3 ”对比 实 验 与 结果 分 析 
a 本 文 实验 采用 了 五 折 交 又 验证 ， 通 过 随机 地 将 数据 集 等 分 
3 ”算法 实验 与 结果 分 析 0 ew ee 
成 五 份 ， 每 次 将 其 中 的 一 份 数 据 集 将 其 中 的 作为 测试 集 ， 另 外 
3.1 数据 来 源 四 份 则 作为 训练 集 。 最 后 ， 将 五 次 实验 得 到 评价 指标 值 〈 包 括 
从 UCI 中 选取 了 10 个 数据 集 作 为 测试 数据 。 为 了 将 所 选 正确 率 、G-mean 值 、 少 数 类 查 准 率 与 查 全 率 ) 的 平均 值 ， 即 作 
的 数据 集 看 做 二 分 类 问题 的 研究 对 象 ， 作 以 下 规定 : 如 果 数 据 为 该 算法 测试 的 最 终 评 价 结果 。 其 中 ， 正 确 率 虽然 对 于 不 平衡 
集 为 两 类 ， 则 将 其 中 数目 较 少 的 一 类 作为 正 类 ， 如 Sonar、 数据 分 类 的 效果 评价 上 存在 缺陷 ， 但 本 文 计 算 该 值 主要 是 用 作 
Ionosphere 数据 集 等 ， 如 果 数 据 集 为 多 类 别 ， 即 其 类 别 数 大 于 对 比 说 明 。 
2, 将 其 中 的 某 一 类 作为 正 类 ,， 剩 下 的 类 统一 合并 当 作 负 类 。 经 为 了 验证 KFDA-Boosting 算法 对 不 平衡 数据 分 类 的 有 效 性 ， 
过 上 述 规定 与 处 理 后 ， 按 不 平衡 度 〈IL) 大 小 升序 排列 ， 得 到 本 文 与 其 他 六 种 算法 进行 对 比 实验 ， 即 决策 树 (DT)、 支 持 向 


于 二 分 类 的 不 平衡 数据 集 情 况 ， 如 表 2 所 示 。 量 机 (SVM)、 人 工 神经 网 络 (ANN)、 核 Fisher 判别 分 析 (KFDA)、 
3.2 ”数据 预 处 理 基于 代价 敏感 的 决策 树 (CS-DT)、 结 合 过 采样 SMOTE 算法 的 
为 了 防止 属性 值 之 间 差 距 过 大 ， 而 影响 算法 的 迭代 过 程 。 支持 向 量 机 (SMOTE-SVM)。 其 中 SVM、KFDA 与 KFDA- 
此 ， 在 进行 算法 实验 之 前 ， 对 原始 数据 进行 归 一 化 处 理 。 Boosting 使 用 的 是 同 种 核 函 数 ， 即 RBF 核 ， 且 最 大 迭代 次 数 设 
对 于 数据 表 中 的 任 一 特征 属性 ， 选 取 该 特征 属性 数值 中 的 。” 置 为 200。 另 外 ， 为 了 便于 比较 ， 其 中 的 SMOTE-SVM 和 CS- 
最 大 取 值 ， 然 后 将 所 有 样本 的 该 属性 值 除 以 上 述 最 大 值得 到 各 ”DT 参数 设置 方式 分 别 同文 献 [3,8]。 


二 


因 


样本 对 应 的 归 一 化 值 。 即 计算 公式 如 下 所 示 : 通过 实验 得 到 以 上 七 种 算法 的 正确 率 、G-mean 值 、 正 类 查 
i 准 率 和 查 全 率 最 终结 果 ， 其 对 比 情况 分 别 如 表 3~6 所 示 。 为 了 
Xj 二 i=], mm; =, N (24) 
~ max(x,) 更 加 直观 地 比较 分 析 各 算法 的 分 类 效果 ， 将 表 3~6 中 的 测试 结 
其 中 : max(x,) 表示 样本 第 j 个 特征 属性 数值 中 的 最 大 值 。 果 绘 制 成 对 应 的 折线 图 ， 如 图 1~4 所 示 。 


表 3 各 算法 测试 的 正确 率 对 比 情况 


编号 ”数据 集 名 DT SVM ANN KFDA CS-DT SMOTE-SVM KFDA-Boosting 
1 Sonar 0.7200 0.8621 0.8196 0.8103 0.8516 0.8856 0.8276 
2 Ionosphere 0.8429 0.8714 0.8429 0.9285 0.8757 0.9247 0.9428 
3 Seeds 0.8535 0.9167 0.9167 0.9048 0.8975 0.9375 0.9286 
4 Wine 0.9558 0.9470 0.9667 0.9485 0.9683 0.9653 0.9874 
5 Ecoli 0.7264 0.9254 0.5475 0.6870 0.9628 0.9528 0.9491 
6 Fertility 1.0000 0.8808 1.0000 0.8168 1.0000 0.9112 0.9625 
7 Balance 0.5585 0.7546 0.8992 0.6960 0.8239 0.8967 0.9040 
8 Glass 0.8926 0.9444 0.9302 0.7701 0.9153 0.9513 0.9247 
9 Page-Blocks 0.9569 0.9508 0.9673 0.8537 0.9571 0.9281 0.9486 
10 Yeast 0.9623 0.9822 0.9865 0.9833 0.9586 0.9845 0.9857 
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表 4 各 算法 测试 的 G-mean 值 对 比 情况 
编号 。 数据 集 名 DT SVM ANN KFDA CS-DT SMOTE-SVM KFDA-Boosting 
Sonar 0.5960 0.8610 0.6975 0.7542 0.8235 0.8663 0.8424 
Ionosphere 0.8435 0.8919 0.7755 0.8512 0.8652 0.9111 0.9271 
Seeds 0.8008 0.9106 0.9192 0.9250 0.8896 0.9467 0.9445 
Wine 0.9252 0.9265 0.9542 0.9236 0.9578 0.9655 0.9837 
Ecoli 0.7096 0.8706 0.6041 0.6996 0.8875 0.8766 0.8558 
Fertility 1.0000 0.0000 1.0000 0.8885 1.0000 0.8589 0.9787 
Balance 0.0000 0.4517 0.5638 0.7324 0.7853 0.8574 0.8622 
Glass 0.8702 0.9014 0.9247 0.8732 0.8827 0.9375 0.9289 
Page-Blocks 0.7806 0.8127 0.8806 0.8208 0.9264 0.9051 0.9325 
Yeast 0.0984 0.5891 0.6228 0.8052 0.7153 0.7468 0.9464 
表 5 各 算法 测试 的 正 类 查 准 率 对 比 情况 
数据 集 名 DT SVM ANN KFDA CS-DT SMOTE-SVM KFDA-Boosting 
Sonar 0.7188 0.8468 0.7941 0.8095 0.7425 0.8451 0.8293 
Ionosphere 0.7586 0.7429 0.9412 0.8422 0.8530 0.8783 0.9055 
Seeds 0.8162 0.8643 0.8467 0.7875 0.8817 0.9034 0.8889 
Wine 0.9267 1.0000 0.9091 0.9546 0.9315 0.9785 0.9764 
Ecoli 0.3043 0.7273 0.2051 0.2571 0.8914 0.9645 0.8876 
Fertility 1.0000 1.0000 0.4805 1.0000 0.9216 0.9560 
Balance 0.0000 0.0903 0.4570 0.1628 0.7563 0.8212 0.8547 
Glass 0.5443 0.4536 0.6521 0.2404 0.8145 0.8776 0.8643 
Page-Blocks 0.5455 0.5455 0.7619 0.7182 0.8457 0.8125 0.8768 
Yeast 0.0265 0.5869 0.6733 0.6576 0.7542 0.8234 0.8538 
表 6 各 算法 测试 的 正 类 查 全 率 对 比 情况 
数据 集 名 DT SVM ANN KFDA CS-DT SMOTE-SVM KFDA-Boosting 
Sonar 0.6216 0.8789 0.7297 0.9120 0.8134 0.9268 0.9189 
Ionosphere 0.8462 0.9546 0.6154 0.9873 0.9673 0.9531 0.9857 
Seeds 0.7857 0.8929 0.9286 1.0000 0.8913 0.9876 1.0000 
Wine 1.0000 0.9169 1.0000 1.0000 1.0000 0.9543 1.0000 
Ecoli 0.7236 0.8208 0.8000 0.9122 0.9351 0.9218 0.9265 
Fertility 1.0000 0.0000 1.0000 1.0000 1.0000 0.8765 1.0000 
Balance 0.0000 0.2592 0.3386 0.5778 0.7868 0.8427 0.8905 
Glass 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 
Page-Blocks 0.6777 0.6667 0.8889 0.7533 0.8562 0.9414 0.9353 
10 Yeast 0.0575 0.5586 0.4563 0.7342 0.7896 0.8011 0.9279 
图 1 和 2 可 以 看 出 , 与 DT、SVM、ANN 及 两 种 改进 的 体 分 类 效果 得 到 较 好 地 改善 。 而 在 不 平衡 度 增 大 一 定 程度 时 ， 


分 类 算法 (CS-DT、SMOTE-SVM) 相 比 ， 在 表 3 中 的 五 个 数 
据 集 测 试 结 果 上 , 本文 KFDA-Boosting 算法 的 G-mean 值 最 大 ， 
而 在 其 他 数据 集 上 的 G-mean 值 与 对 应 的 最 大 值 相差 并 不 大 ， 
这 表明 本 文 算法 整体 分 类 效果 良好 。 当 数据 集 的 不 平衡 度 逐 渐 
增 大 时 ， 与 传统 的 DT 和 SVM 算法 相 比 ，CS-DT 和 SMOTE- 
SVM 在 个 数据 集 上 测试 的 G-mean 值 均 有 不 同 程度 的 增 大 ， 整 


本 文 算法 仍 具 有 很 大 的 G-mean 值 ， 且 相对 优 于 CS-DT 和 
SMOTE-SVM 两 种 改进 算法 的 对 应 值 ， 如 测试 集 Page-Blocks、 
Yeast。 与 此 同时 ，DT、SVM、ANN 三 种 算法 测试 的 正确 率 虽 
均 达 到 了 90% 以 上 ， 但 其 对 应 的 G-mean 值 却 较 小 。 

在 图 3 与 4 中 进一步 可 以 看 出 ， 随 着 不 平衡 度 逐 渐 增 大 ， 
KFDA-Boosting 在 对 应 数据 集 上 测试 的 正 类 查 准 率 与 查 全 率 两 
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4 ”各 算法 况 


I 试 的 正 类 查 全 率 对 比 图 
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项 指标 的 均值 都 很 大 ， 而 其 他 算法 的 对 应 值 相对 较 小 ， 该 情况 同时 还 可 以 看 出 ， 对 于 同一 数据 集 ，KFDA-Boosting 算法 
在 呈 非 线性 特征 的 不 平衡 数据 测试 上 表现 得 尤为 明显 ， 例 如 数 的 G-mean 值 及 正 类 查 准 率 大 于 KFDA 对 应 的 值 。 除 数据 集 
据 集 Yeast, 这 表明 本 文 算法 能 有 效 利用 样本 的 非 线 性 特征 , 且 Ionosphere 外 ， 本 文 算法 的 正 类 查 全 率 大 于 KFDA 对 应 的 指标 
对 少数 类 样本 具有 很 强 的 识别 能 力 。 从 侧面 也 证 实 了 ， 分 类 正 。” 值 或 与 对 应 最 优 值 相当 ， 这 表明 本 文 提出 的 算法 ， 与 单独 采用 
确 率 作为 不 平衡 数据 分 类 的 评价 指标 有 时 并 不 能 有 效 地 衡量 分 。 KFDA 相 比 ， 分 类 效果 有 很 大 地 提升 ， 尤 其 是 针对 正 类 样本 的 
类 器 的 分 类 效果 。 识别 。 
此 外 ， 进 一 步 可 以 算出 各 种 分 类 算法 测试 的 G-mean 值 方 


差分 别 为 0.1173、0.0889、0.0263、0.0063、0.0069、0.0039、 


0.0025， 由 此 可 说 明 ， 针 对 不 同 的 数据 集 ， 本 文 提 
Boosting 算法 与 其 他 分 类 第 


4 


大 了 识别 少数 类 的 困难 ， 
别 分 析 与 Boosting 


判 


对 原始 数据 的 非 线 性 类 
本 文 算法 通过 对 UCI 


和 。 


出 的 KFDA- 
9 较 好 的 稳定 


法 相 比 ， 整 体 分 类 具 


对 于 不 平衡 数据 分 类 中 ， 数 据 特征 越 来 越 呈 现 非 线性 ， 加 
本 文 提出 了 一 种 基于 改进 的 核 Fisher 
算法 的 分 类 方法 ， 即 KFDA-Boosting 算 
该 算法 能 有 效 利用 样本 特征 ， 尤 其 是 非 线 性 特征 ， 以 实现 
别 , 保 证 了 样本 的 最 佳 可 分 离 性 ,最 后 ， 

中 的 10 个 数据 集 的 测试 实验 表明 ， 对 于 


让 


不 平衡 度 较 大 或 呈 非 线性 特征 的 数据 ， 本 文 算法 分 类 的 效果 显 


著 , 与 DT、SVM、ANN、 


KFDA、CS-DT、SMOTE-SVM 相 比 ， 


KFDA-Boosting 算法 能 有 效 地 识别 少数 类 ， 表 现 出 良好 的 整体 
分 类 效果 ， 并 具有 的 这 也 证 明了 该 算法 在 处 理 不 


平衡 数据 分 类 问题 的 可 行 1 


将 考虑 多 分 类 问题 及 相应 的 评价 指标 ， 


生 和 有 效 性 。 
为 了 扩大 本 文 算法 对 不 平衡 数据 分 类 的 适 


-全 


Dg 


用 性 ， 后 续 研 究 
步 改 善本 文 算法 


进 


对 不 平衡 数据 的 分 类 性 能 。 
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